智能论文笔记

MONAI: An open-source framework for deep learning in healthcare

M. Jorge Cardoso , Wenqi Li , Richard Brown , Nic Ma , Eric Kerfoot , Yiheng Wang , Benjamin Murrey , Andriy Myronenko , Can Zhao , Dong Yang

分类：机器学习 | 人工智能 | 计算机视觉

2022-11-04

Artificial Intelligence (AI) is having a tremendous impact across most areas of science. Applications of AI in healthcare have the potential to improve our ability to detect, diagnose, prognose, and intervene on human disease. For AI models to be used clinically, they need to be made safe, reproducible and robust, and the underlying software framework must be aware of the particularities (e.g. geometry, physiology, physics) of medical data being processed. This work introduces MONAI, a freely available, community-supported, and consortium-led PyTorch-based framework for deep learning in healthcare. MONAI extends PyTorch to support medical data, with a particular focus on imaging, and provide purpose-specific AI model architectures, transformations and utilities that streamline the development and deployment of medical AI models. MONAI follows best practices for software-development, providing an easy-to-use, robust, well-documented, and well-tested software framework. MONAI preserves the simple, additive, and compositional approach of its underlying PyTorch libraries. MONAI is being used by and receiving contributions from research, clinical and industrial teams from around the world, who are pursuing applications spanning nearly every aspect of healthcare.

translated by 谷歌翻译

SongDriver: Real-time Music Accompaniment Generation without Logical Latency nor Exposure Bias

Zihao Wang , Kejun Zhang , Yuxing Wang , Chen Zhang , Qihao Liang , Pengfei Yu , Yongsheng Feng , Wenbo Liu , Yikai Wang , Yuntai Bao

分类：机器学习

2022-09-13

实时音乐伴奏的生成在音乐行业（例如音乐教育和现场表演）中具有广泛的应用。但是，自动实时音乐伴奏的产生仍在研究中，并且经常在逻辑延迟和暴露偏见之间取决于权衡。在本文中，我们提出了Song Driver，这是一种无逻辑延迟或暴露偏见的实时音乐伴奏系统。具体而言，Songdriver将一个伴奏的生成任务分为两个阶段：1）安排阶段，其中变压器模型首先安排了和弦，以实时进行输入旋律，并在下一阶段加速了和弦，而不是播放它们。 2）预测阶段，其中CRF模型基于先前缓存的和弦生成了即将到来的旋律的可播放的多轨伴奏。通过这种两相策略，歌手直接生成即将到来的旋律的伴奏，从而达到了零逻辑延迟。此外，在预测时间步的和弦时，歌手是指第一阶段的缓存和弦，而不是其先前的预测，这避免了暴露偏见问题。由于输入长度通常在实时条件下受到限制，因此另一个潜在的问题是长期顺序信息的丢失。为了弥补这一缺点，我们在当前时间步骤作为全球信息之前从长期音乐作品中提取了四个音乐功能。在实验中，我们在一些开源数据集上训练歌手，以及由中国风格的现代流行音乐得分构建的原始\```````'''aisong数据集。结果表明，歌手在客观和主观指标上均优于现有的SOTA（最先进）模型，同时大大降低了物理潜伏期。

translated by 谷歌翻译

TransBoost: A Boosting-Tree Kernel Transfer Learning Algorithm for Improving Financial Inclusion

Yiheng Sun , Tian Lu , Cong Wang , Yuan Li , Huaiyu Fu , Jingran Dong , Yunjie Xu

分类：机器学习

2021-12-04

移动和金融技术的繁荣已经为更广泛的人们培育和扩展了各种金融产品，这有助于倡导金融包容。它具有递减金融不平等的非琐碎的社会效益。然而，由独特的特征分布和新用户的信用史有限造成的个人金融风险评估的技术挑战，以及新用户的缺乏经验，在处理复杂数据和获得准确的标签方面，妨碍了进一步推动金融包容性。为了解决这些挑战，本文开发了一种新颖的转移学习算法（即转换），其结合了基于树的模型和内核方法的优点。 Transpoost设计具有平行树结构和有效的重量更新机制，具有理论上的保证，使其能够以$ O（n）$时间复杂度的高维特征和稀疏性在解决现实世界数据中。我们对两个公共数据集进行了广泛的实验，以及腾讯移动支付的独特大规模数据集。结果表明，在具有卓越效率的预测精度方面，转换越野越优于其他最先进的基准传输学习算法，表现出对数据稀疏性的更强的鲁棒性，并提供有意义的模型解释。此外，鉴于财务风险等级，转博稳定使金融服务提供商能够满足最多的用户，包括其他算法。也就是说，转船改善了金融包容性。

translated by 谷歌翻译

LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document Understanding

Yang Xu , Yiheng Xu , Tengchao Lv , Lei Cui , Furu Wei , Guoxin Wang , Yijuan Lu , Dinei Florencio , Cha Zhang , Wanxiang Che

分类：自然语言处理

2020-12-29

由于其有效的模型架构以及大规模未标记的扫描/数字出生的文件的优势，在各种视觉上丰富的文档理解任务中已经证明了文本和布局的预先培训。我们提出了具有新的预培训任务的Layoutlmv2架构，以在单个多模态框架中模拟文本，布局和图像之间的交互。具体地，对于双流多模态变压器编码器，LayOutLMV2不仅使用现有屏蔽的视觉语言建模任务，还使用新的文本图像对齐和文本图像匹配任务，这使得它更好地捕获跨模块交互在预训练阶段。同时，它还将空间感知的自我注意机制集成到变压器架构中，以便模型可以完全理解不同文本块之间的相对位置关系。实验结果表明，LayoutLMV2优于大幅度的LayOutlm，并在大量下游的下游富有的文件理解任务中实现了新的最先进的结果，包括Funsd（0.7895 $ \至0.8420美元），电源线（0.9493 $ \至0.9601美元），Srie（0.9524 $ \至0.9781美元），Kleister-NDA（0.8340 $ \ 0.8520美元），RVL-CDIP（0.9443 $ \至0.9564美元），DOCVQA（0.7295 $ \至0.8672美元）。我们使我们的模型和代码公开可用于\ url {https://aka.ms/layoutlmv2}。

translated by 谷歌翻译

Global Convergence of Localized Policy Iteration in Networked Multi-Agent Reinforcement Learning

Yizhou Zhang , Guannan Qu , Pan Xu , Yiheng Lin , Zaiwei Chen , Adam Wierman

分类：机器学习 | 人工智能

2022-11-30

We study a multi-agent reinforcement learning (MARL) problem where the agents interact over a given network. The goal of the agents is to cooperatively maximize the average of their entropy-regularized long-term rewards. To overcome the curse of dimensionality and to reduce communication, we propose a Localized Policy Iteration (LPI) algorithm that provably learns a near-globally-optimal policy using only local information. In particular, we show that, despite restricting each agent's attention to only its $\kappa$-hop neighborhood, the agents are able to learn a policy with an optimality gap that decays polynomially in $\kappa$. In addition, we show the finite-sample convergence of LPI to the global optimal policy, which explicitly captures the trade-off between optimality and computational complexity in choosing $\kappa$. Numerical simulations demonstrate the effectiveness of LPI.

translated by 谷歌翻译

Spatial-Temporal Convolutional Attention for Mapping Functional Brain Networks

Yiheng Liu , Enjie Ge , Ning Qiang , Tianming Liu , Bao Ge

分类：计算机视觉 | (统计)机器学习

2022-11-04

Using functional magnetic resonance imaging (fMRI) and deep learning to explore functional brain networks (FBNs) has attracted many researchers. However, most of these studies are still based on the temporal correlation between the sources and voxel signals, and lack of researches on the dynamics of brain function. Due to the widespread local correlations in the volumes, FBNs can be generated directly in the spatial domain in a self-supervised manner by using spatial-wise attention (SA), and the resulting FBNs has a higher spatial similarity with templates compared to the classical method. Therefore, we proposed a novel Spatial-Temporal Convolutional Attention (STCA) model to discover the dynamic FBNs by using the sliding windows. To validate the performance of the proposed method, we evaluate the approach on HCP-rest dataset. The results indicate that STCA can be used to discover FBNs in a dynamic way which provide a novel approach to better understand human brain.

translated by 谷歌翻译

Entropy Induced Pruning Framework for Convolutional Neural Networks

Yiheng Lu , Ziyu Guan , Yaming Yang , Maoguo Gong , Wei Zhao , Kaiyuan Feng

分类：计算机视觉

2022-08-13

结构化的修剪技术在用于图像分类任务的卷积神经网络上取得了出色的压缩性能。但是，大多数现有方法都是面向重量的，当原始模型的训练不佳时，它们的修剪结果可能不令人满意。也就是说，需要一个全面训练的模型来提供有用的权重信息。这可能是耗时的，并且修剪结果对模型参数的更新过程敏感。在本文中，我们提出了一个名为“平均过滤器信息熵（AFIE）”的度量，以测量每个滤镜的重要性。它是由三个主要步骤计算得出的，即每个卷积层的“输入输出”矩阵的低排放分解，所获得的特征值的归一化以及基于信息熵的滤波器重要性计算。通过利用拟议的AFIE，无论是否完全训练原始模型，建议的框架都能对每个过滤器进行稳定的重要性评估。我们基于Alexnet，VGG-16和Resnet-50实施AFIE，并分别对MNIST，CIFAR-10和Imagenet进行测试。实验结果令人鼓舞。我们出乎意料地观察到，对于我们的方法，即使原始模型仅经过一个时代的训练，每个过滤器的重要性评估在模型经过全面训练时都与结果相同。这表明拟议的修剪策略可以在原始模型的训练过程的开始阶段有效地执行。

translated by 谷歌翻译

RuDi: Explaining Behavior Sequence Models by Automatic Statistics Generation and Rule Distillation

Yao Zhang , Yun Xiong , Yiheng Sun , Caihua Shan , Tian Lu , Hui Song , Yangyong Zhu

分类：机器学习 | 人工智能

2022-08-12

风险评分系统已被广泛地部署在许多应用程序中，这些应用程序根据用户的行为序列将风险分数分配给了。尽管许多具有复杂设计的深度学习方法已经取得了令人鼓舞的结果，但由于公平，解释性和合规性考虑，黑框的性质阻碍了他们的应用。在这些敏感情况下，基于规则的系统被认为是可靠的。但是，构建规则系统是劳动密集型的。专家需要从用户行为序列，基于统计数据的设计规则中找到信息统计信息，并为每个规则分配权重。在本文中，我们弥合了有效但黑色框模型与透明规则模型之间的差距。我们提出了一种两阶段的方法Rudi，该方法将黑框教师模型的知识提炼成基于规则的学生模型。我们设计了一种基于蒙特卡洛树搜索的统计生成方法，该方法可以在第一阶段提供一组信息统计信息。然后，通过模仿教师模型的输出，将统计数据与我们提出的神经逻辑网络组成逻辑规则。我们在三个现实世界公共数据集和一个工业数据集上评估了Rudi，以证明其有效性。

translated by 谷歌翻译

Learning Based Joint Coding-Modulation for Digital Semantic Communication Systems

Yufei Bo , Yiheng Duan , Shuo Shao , Meixia Tao

分类：机器学习

2022-08-11

在基于学习的语义沟通中，神经网络在传统通信系统中取代了不同的构件。但是，数字调制仍然是神经网络的挑战。基于神经网络的数字调制的固有机制是将神经网络编码器的连续输出映射到离散的星座符号中，这是一个不可差的函数，无法使用现有的梯度下降算法进行训练。为了克服这一挑战，在本文中，我们为使用BPSK调制的数字语义通信制定了联合编码调节方案。在我们的方法中，神经网络输出了每个星座点的可能性，而不是具有混凝土映射。因此，使用了随机代码而不是确定性代码，该代码在每个星座上都有可能的符号保留更多信息。联合编码调制设计可以与频道状态相匹配，从而提高数字语义通信的性能。实验结果表明，我们的方法在广泛的SNR上优于语义通信中现有的数字调制方法，并且低SNR制度中的基于神经网络的模拟调制方法优于基于神经网络的模拟调制方法。

translated by 谷歌翻译

SBPF: Sensitiveness Based Pruning Framework For Convolutional Neural Network On Image Classification

Yiheng Lu , Maoguo Gong , Wei Zhao , Kaiyuan Feng , Hao Li

分类：计算机视觉 | 人工智能

2022-08-09

修剪技术可全面使用图像分类压缩卷积神经网络（CNN）。但是，大多数修剪方法需要一个经过良好训练的模型，以提供有用的支持参数，例如C1-核心，批处理值和梯度信息，如果预训练的模型的参数为，这可能会导致过滤器评估的不一致性不太优化。因此，我们提出了一种基于敏感性的方法，可以通过为原始模型增加额外的损害来评估每一层的重要性。由于准确性的性能取决于参数在所有层而不是单个参数中的分布，因此基于灵敏度的方法将对参数的更新具有鲁棒性。也就是说，我们可以获得对不完美训练和完全训练的模型之间每个卷积层的相似重要性评估。对于CIFAR-10上的VGG-16，即使原始模型仅接受50个时期训练，我们也可以对层的重要性进行相同的评估，并在对模型进行充分训练时的结果。然后，我们将通过量化的灵敏度从每一层中删除过滤器。我们基于敏感性的修剪框架在VGG-16，分别具有CIFAR-10，MNIST和CIFAR-100的VGG-16上有效验证。

translated by 谷歌翻译